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摘 要 : 目前 已 提出 的 真 值 发 现 方法 无 法 解决 对 象 由 多 个 单 值 属性 与 多 值 属性 共同 组 成 的 情况 ， 若 将 这 些 属 性 拆 分 
后 分 别处 理 则 会 破坏 属性 间 原 有 的 关联 , 导致 计算 结果 不 准确 。 提 出 一 种 多 属性 数据 的 联合 真 值 发 现 方法 ATD4MA， 
将 对 象 各 观察 值 通过 遗传 算法 中 的 染色 体 进行 建 模 ， 针 对 问题 特性 对 群体 初始 化 算法 和 染色 体 基本 动作 进行 改进 ， 
控制 染色 体 的 演化 行为 对 各 属性 进行 约 来 ， 以 各 对 象 的 真 值 染 色 体 与 各 数据 源 提供 的 观察 值 染 色 体 间 的 差异 加 权 和 
达到 最 小 为 目标 建立 优化 模型 ， 解 决 了 对 象 包含 多 个 属性 的 真 值 发 现 问题 。 在 两 个 真实 数据 集 上 的 实验 ， 证 明了 提 
出 方法 的 正确 性 和 有 效 性 
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ATD4MA: associated truth discovery method for multi-attribute data 


He Jie, Lu Jing, Shao Qing, Liu Cong 
(School of Optical-electrical & Computer Engineering, University of Shanghai for Science & Technology, Shanghai 200093, 
China) 


Abstract: The current truth discovery method cannot solve the case where the object is composed of many single-valued 
attributes and multi-valued attributes. Separate processing of these attributes will destroy the original association between 
attributes, resulting in inaccurate results. This paper proposed an associated truth discovery method for multi-attribute data 
(ATD4MA). It modeled the observation values of the object using the chromosomes in the genetic algorithm. Then it 
improved the population initialization algorithm and the basic action of the chromosome according to the problem 
characteristics. By controlling the evolution behavior of chromosomes, it established the optimization model to minimize 
the weighted sum of difference between the truth-value chromosomes of each object and the observed values provided by 
each data source. Therefore it solved the problem of truth discovery where the object contains multiple attributes. 
Experiments on two real data sets show the correctness and effectiveness of the proposed method. 
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0 引言 的 信息 ， 学 术 界 称 之 为 真 值 发 现 问题 。 
表 1 各 网 站 提供 的 电影 信息 

随 着 互联 网 的 快速 发 展 ，Web 已 经 成 为 人 们 获取 信息 的 Table 1 Movie information provided by each website 
主要 手段 之 一 。 与 此 同时 ， 数 据 冲 突 问题 也 日 益 凸 显 ， 不 同 数据 源 演员 列表 电影 时 长 
数据 源 会 对 同一 对 象 赋予 截然 不 同 的 描述 , 大量 错误 、 过 时 、 二 办 责 轩 , 苗 苗 , 钟 楚 曦 , 杨 采 钱 ,李晓峰 , 王 天 搬 ， 人 
不 完整 、 虚 假 的 信息 混杂 于 网 络 之 中 ， 这 使 得 用 户 难 以 辨别 本 王 可 如 , 隋 源 , 张 仁 博 , 苏 岩 ,张国立 , 赵 立新 
正确 的 结果 。 这 些 错误 的 信息 不 仅 没 有 任何 利用 价值 ， 且 使 优酷 策 轩 , 苗 苗 , 钟 楚 曦 ， 李 晓 峰 136 min 
得 整个 Web 数据 源 提 供 的 信息 成 为 一 个 冲突 集 , 给 用 户 带 来 1905 电影 黄 轩 , 苗 苗 , 钟 楚 曦 , 杨 采 钰 ,李晓峰 130 min 
误导 甚至 造成 巨大 的 损失 。 例 如 ， 各 网 站 对 电影 《 芳 华 》 的 由 严歌苓 , 黄 轩 , 苗 苗 , 钟 楚 曦 , 杨 采 钰 ,李晓峰 ， . 
演员 列表 和 总 时 长 两 个 属性 提供 了 不 同 的 描述 信息 ， 如 表 1 和 王 天 展 , 王 可 如 , 隋 源 Eee 
所 示 。 其 中 ， 豆 办 提供 了 正确 的 演员 列表 、 错 误 的 电影 总 时 期 的 解决 方法 采取 投票 机 制 ， 即 出 现 最 多 次 数 的 信息 
长 ;优酷 提供 了 不 完整 的 演员 列表 、 正 确 的 电影 时 长 ;而 电 被 认为 是 最 可 信 的 ， 此 方法 认为 数据 源 提供 了 相同 可 信和 度 的 
影 天 堂 提供 的 描述 中 存在 错误 的 信息 ， 误 将 该 电影 的 编剧 记 言 息 ， 忽 略 了 数据 源 质量 上 的 差异 。 目 前 真 值 发 现 处 理 方法 


录 为 演员 。 可 分 为 两 类 : a 利 用 和 迭代 机 制 ， 根 据 高 质量 的 数据 源 可 能 提 

此 可 以 看 出 ， 不 同 网 站 对 于 同一 对 象 的 描述 存在 大 量 。“ 供 高 可 信 的 数据 ， 大 量 高 可 信 数 据 可 能 源 于 高 质量 数据 源 的 
冲突 信息 ， 这 些 冲 突 信息 可 能 由 人 为 的 粗心 大 意 、 信 息 长 时 原理， 反复 迭代 更 新 各 数据 源 权 值 与 对 象 真 值 集合 直至 算法 
间 未 更 新 或 语义 分 析 不 正确 等 原因 造成 ， 这 不 仅 对 用 户 的 查 。” ”达到 收敛 状态 ; b) 基 于 概率 , 通过 建立 概率 模型 来 推断 观察 值 
询 起 到 误导 作用 ， 且 使 得 原本 正确 的 信息 无 法 被 辨别 ， 给 用 ”为 真 值 的 可 能 性 ， 从 而 确定 真 值 集合 
户 带 来 巨大 的 不 便 。 如 何在 有 冲突 的 数据 集中 找到 值得 信赖 相关 研究 经 历 了 两 个 阶段 ， 第 一 阶段 为 真 值 发 现 。 文 
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录用 定稿 何 杰 等: AID4MA: 多 属性 数据 的 联合 真 值 发 现 方法 第 37 卷 第 6 期 
献 [1] 首 次 定义 真 值 发 现 问题 ,提出 一 种 基于 贝 叶 斯 概率 模型 c) 一 定 程度 上 消除 了 长 尾 现象 对 数据 源 权 值 计算 的 影响 。 


的 启发 式 算法 TruthFinder， 通 过 无 监督 的 迭代 机 制 联合 计算 将 数据 源 权 值 除 以 该 数据 源 提 供 对 象 的 数量 ， 平 滑 了 各 数据 
数据 源 质量 和 真 值 可 信 度 。 在 此 基础 之 上 为 减少 各 负面 因素 源 提供 对 象 数 量 上 的 差异 , 以 进一步 提升 计算 结果 的 精准 度 。 
对 数据 源 权 值 计 算 的 有 影响， 文献 [2] 基 于 概率 模型 ， 提 出 事实 d) 提 出 ATD4MA(associated truth discovery for 
难 易 程度 的 概念 ， 以 提高 各 数据 源 可 信 度 。 文 献 [3~6] 提 出 了 multi-attribute data) 算 法 ， 利 用 遗传 算法 中 染色 体 对 多 属性 
数据 间 各 种 复制 关系 及 关联 关系 的 检测 及 处 理 方法 ， 以 减少 真 值 发 现 问 题 进行 联合 建 模 ， 并 改进 了 算法 流程 。 通 过 改 
数据 间 的 复制 关系 对 数据 源 权 值 计算 精确 度 的 影响 。 文 献 [7] f 体 初始 化 算法 与 染色 体 演化 时 的 基本 动作 对 其 变化 后 的 
考虑 到 数据 中 普遍 存在 的 长 尾 现象 ,提出 基于 置信 度 的 方法 ， 部 基因 特征 进行 控制 ， 从 而 约束 属性 值 的 数量 ， 避 免 单 值 
减少 长 尾 现象 对 结果 精确 性 的 影响 。 文 献 [8,9] 认 为 同一 数据 性 出 现 多 个 解 的 错误 情况 ， 并 通过 优胜 劣 汰 的 原则 对 染色 
源 下 不 同 知识 领域 的 数据 应 有 不 同 的 权 值 分 配 ， 提 出 基于 知 种 群 进行 演化 从 而 逐步 逼近 全 局 最 优 解 ， 从 目标 函数 的 多 
识 领 域 的 权 值 分 配方 法 。 文 献 [1 一 9] 可 以 统称 为 真 值 发 现 问 局 部 最 优 解 中 找到 全 局 最 优 解 ， 在 线性 时 间 内 计算 出 各 数 


强 


du [i 


题解 决 方案 的 第 一 个 阶段 ， 因 为 它们 只 能 处 理 单 真 值 单 属性 。” ” 源 最 优 权 值 分 配 与 最 终 多 真 值 结果 集 ， 解 决 了 多 属性 对 象 的 
的 问题 。 真 值 发 现 问题 。 

第 二 阶段 的 研究 为 多 真 值 发 现 。 文 献 [10] 提 出 一 种 基于 e) 通 过 在 两 个 真实 数据 集 上 的 实验 ， 验 证 了 本 文 提出 方 
贝 叶 斯 的 半 监 督学 习 方法 ， 通 过 拟定 的 值 与 观察 值 之 间 的 相 。 ”法 的 准确 性 和 有 效 性 。 


似 性 通过 迭代 算法 直到 收敛 来 计算 真 值 结果 集 。 文 献 [1H] 通 


& D 
过 构建 概率 图 模型 LIM, 假设 数据 源 的 准确 率 和 查 全 率 服从 1 ”系统 框架 


Beta 分 布 ， 从 而 得 到 属性 值 为 真 的 概率 ， 然 后 根据 计算 得 到 ”1.1 相关 定义 

的 概率 值 与 之 前 设 定好 闵 值 间 大 小 关系 得 到 最 终 的 真 值 集 。 定义 1 对 象 可 能 值 集 。 所 有 数据 源 为 该 对 象 提供 属性 
然而 ， 此 方法 在 阔 值 的 设 定 规则 与 最 终 属 性 值 的 选择 策略 上 ” 值 的 集合 。 为 不 破坏 对 象 属性 值 原本 的 顺序 ， 在 多 值 属性 值 
并 没有 给 出 严格 的 定义 ， 不 同 的 阔 值 设 定 会 对 结果 的 精确 性 ”的 放置 顺序 上 本 文采 取 投 票 统计 的 方式 进行 排序 ， 即 将 多 值 
造成 不 同 程度 的 影响 。 文 献 [12] 提 出 数据 相似 性 概念 ， 建 立 属性 的 某 个 位 置 上 出 现 的 各 值 进行 统计 ， 出 现 次 数 最 多 值 放 
优化 模型 避免 阔 值 的 设 定 。 文 献 [13] 基 于 严格 的 数学 推导 ， 置 于 当前 位 置 。 在 单 值 属性 的 处 理 上 ， 不 涉及 顺序 问题 ， 为 
对 无 监督 迭代 型 算法 最 终 是 否 可 达到 收敛 给 出 了 证 明 。 方便 之 后 对 照 将 其 中 名 称 按照 字母 序 排列 ， 数 值 按照 大 小 排 

文献 [14] 首 次 提出 并 解决 真 值 发 现 问 题 中 对 象 存在 多 个 ” 列 。 

属性 的 问题 ， 但 该 方法 只 考虑 到 多 属性 单 真 值 的 问题 ， 并 未 例 1 表 1 所 示 的 电影 数据 中 ， 以 演员 属性 为 例 ， 经 过 
涉及 多 属性 多 真 值 的 问题 。 当 对 象 包含 一 个 或 多 个 单 值 属 性 ”统计 后 发 现 各 对 象 描述 数据 中 第 一 位 出 现 “ 黄 轩 ” 的 次 数 最 
的 同时 也 包含 一 个 或 多 个 多 值 属 性 时 ， 目 前 已 有 的 真 值 发 现 大， 其 对 象 可 能 值 集中 第 一 位 置 应 放 “ 黄 轩 ”。 故 《 芳 华 》 对 
方法 无 法 解决 此 种 情况 。 以 表 1 中 电影 数据 为 例 ， 电 影 时 长 ”应 的 可 能 值 集 为 { 黄 轩 , 苗 苗 , 钟 楚 哮 , 杨 采 钰 ,李晓峰 , 王 天 展 ， 
属性 为 单 值 ， 演 员 列表 属性 为 多 值 。 若 仅 通过 现 有 的 真 值 发 王 可 如 , 隋 源 , 张 仁 博 , 苏 岩 , 张 国立 , 赵 立 新 ,严歌苓 ，130 min， 
现 方法 来 解决 此 问题 ， 可 尝试 两 种 方案 ， 分 析 如 下 : 136 min, 146 min} 。 

a) 将 所 有 属性 视 为 一 个 整体 ， 通 过 多 真 值 发 现 方法 模型 定义 2 ”对 象 观察 值 染色 体 。 表 示 了 数据 源 提供 观察 值 
进行 求解 。 理 论 上 可 以 求 得 最 相似 的 真 值 结 果 集 ， 但 无 法 避 在 对 象 可 能 值 集 上 的 分 布 情况 ， 可 直接 视 为 遗传 优化 算法 中 
免 单 值 属性 最 终 被 赋予 多 个 值 的 情况 。 的 标准 染色 体 ， 其 长 度 为 该 对 象 可 能 值 集 的 长 度 ， 每 个 基因 

b) 将 属性 拆 分 为 两 个 子 问题 ， 分 别 通过 单 真 值 发 现 方法 ”初始 值 为 0， 取 值 范围 为 {0,1}。 当 观察 值 提供 了 可 能 值 集 上 


和 多 真 值 发 现 方法 进行 计算 。 该 方法 刻意 地 将 属性 进行 拆 分 ， 的 第 i 个 值 时 ， 则 将 该 染色 体 中 第 i 个 基因 的 值 标记 为 1。 
破坏 了 对 象 属性 间 的 关联 ， 导 致 在 数据 源 权 值 计算 上 出 现 偏 例 2 ” 若 得 到 一 组 电影 数据 的 观察 值 为 { 黄 轩 , 苗 苗 , 钟 楚 
差 ， 从 而 得 到 不 精确 的 结果 。 吐 , 杨 采 钰 ,李晓峰 , 王 天 尾 , 王 可 如 , 隋 源 ,136 min}, 则 其 对 象 观 

综 上 ， 目 前 已 提出 方法 无 法 同时 进行 多 个 属性 的 联合 处 察 值 染 色 体 为 {1,1,1,0,1,1,1,1,0,1,0,0,0,0,1,0}。 

理 。 若 按照 之 前 方法 则 只 能 将 属性 拆 分 为 单个 属性 去 套用 只 定义 3 ”观察 值 属性 染色 体 。 对 象 观察 值 染色 体 的 子 染 
能 处 理 一 个 属性 的 算法 ,这 完全 忽略 了 属性 间 相 关 性 的 存在 ， 色 体 ， 对 应 该 对 象 中 的 茶 个 属性 。 

且 拆 分 后 很 难 有 一 个 合理 的 合并 方案 ， 因 此 需 提出 一 种 整体 例 3 例 2 中 描述 电影 时 长 属性 的 观察 值 染色 体 为 
求解 的 方法 ， 确 保 不 破坏 属性 相关 性 。 本 文 提出 一 种 联合 {0,1,0}。 

值 发 现 方法 ， 首 先 将 每 条 记录 用 遗传 算法 中 染色 体 的 形式 表 定义 4 对 象 真 值 染色 体 。 用 来 表示 某 对 象 的 真 值 集合 ， 
示 ， 并 在 遗传 算法 原 有 流程 的 基础 上 针对 本 问题 进行 改进 ， 其 长 度 为 该 对 象 可 能 值 集 的 长 度 ， 每 个 基因 初始 值 全 为 0， 

同时 可 以 克服 多 属性 情况 下 目标 函数 存在 多 个 局 部 最 优 解 的 。 ” 取 值 范围 为 {0,1}。 当 真 值 集合 中 存在 该 对 象 可 能 值 集 上 的 第 
问题 ,在 不 破坏 属性 相关 性 的 前 提 下 计算 出 对 象 真 值 结果 集 。 i 个 值 时 ， 则 将 该 染色 体 中 第 i 个 基因 的 值 标记 为 1。 

该 方法 不 仅 可 用 于 一 般 的 单 真 值 与 多 真 值 发 现 ， 且 在 该 研究 列 4” 若 电影 《 芳 华 》 的 真 值 集合 为 { 黄 轩 , 苗 苗 , 钟 楚 眶 ， 
领域 取得 一 大 突破 ， 即 可 解决 对 象 同 时 包含 多 个 单 值 与 多 值 。 杨 采 钰 ,李晓峰 , 王 天 辰 , 王 可 如 ,146 min}， 则 该 电影 对 象 的 真 
属性 的 真 值 发 现 问题 。 本 文 主要 贡献 总 结 如 下 : 值 染 色 体 为 {1,1,1,0,1,1,1,1,0,0,0,0,0,0,0,1}。 

a) 本 文 提出 联合 真 值 发 现 问题 ， 证 明了 多 属性 数据 中 各 定义 5 ”数据 源 权 值 。 表 示 该 数据 源 提供 的 观察 值 为 真 
属性 间 存 在 相关 性 的 事实 , 以 此 建立 出 合理 的 真 值 求解 模型 ，” 实 值 的 概率 。 权 值 越 大 ， 则 表明 该 数据 源 提供 真实 值 的 可 能 
确保 在 计算 过 程 中 不 会 破坏 对 象 属性 间 相 关 性 。 性 越 大 ; 权 值 越 小 , 则 表明 该 数据 源 提供 真实 值 的 可 能 性 越 小 。 

b) 提 出 数据 差异 性 概念 ， 定 义 损失 函数 用 于 评价 两 数据 ”各 数据 源 权 值 总 和 为 1。 

间 的 冲突 程度 。 以 数据 整体 差异 性 最 小 为 目标 建立 优化 模型 ， 本 文中 使 用 的 变量 定义 如 表 2 所 示 。 


无 须 设 置 阔 值 及 制定 选择 策略 ,避免 了 人 为 设 定 造成 的 影响 。 表 2 文中 使 用 的 变量 定义 
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图 1 系统 框架 


Fig.1 System framework 
2 多 属性 数据 的 联合 真 值 发 现 方法 ATD4MA 


2.1 多 属性 对 象 各 属性 间 的 相关 性 
对 各 属性 间 的 相关 性 进行 讨论 。 对 于 标 称 数据 ， 两 属性 


间 的 相关 联系 可 通过 Person x? 统计 量 进行 检验 。 令 (4,8,) 表 


示 属 性 4 取 值 w、 属 性 B 取 值 4 的 联合 事件 ，x? 用 下 式 进 
行 计算 : 


re (1) 


i=1 j=l 


其 中 :0 为 联合 事件 (4,8;) 的 观测 频 度 ， 
频 度 。& 可 用 下 式 计算 ; 


count(A=a;)xcount(B=b,) 
@;j= 


n 


为 (4,B,) 的 期 望 


CO) 


其 中 :为 描述 对 象 的 元 组 个 数 ，count(4=a) 为 属性 A 上 
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Table 2 ”Notation of variables 标准 差 ，>(ab) 是 48 的 叉 积 和 。 若 mms 等 于 0， 则 4 和 8 是 
变量 定义 独立 的 。 
N Number of Objects 抽取 电影 数据 中 1 000 条 记录 中 的 演员 与 电影 类 型 两 属 
K Number of Sources 性 作为 数据 样本 ， 其 中 300 条 记录 中 类 型 为 喜剧 。 如 表 3 所 
M Number of i -th Object’s Attributes 示 。 
O, Collection of Objects from Source s 表 3 数据 样本 的 2*2 相依 表 
C2 The Observation Set of Object i from All Sources Table 3 2*2 Dependency Table of Data Samples 
0 The Observation Set of Object Oi，from Source S: 类 型 周星驰 其 他 演员 
Ti The Truth Chromosome of i -th Object 喜剧 165 135 
1.2 系统 架构 其 他 32 668 
本 文通 过 以 下 五 个 步骤 进行 真 值 发 现 ， 如 图 1 所 示 。 利用 式 (2) 计 算 每 个 单元 的 期 望 频率 ， 比 如 单元 (周星驰 ， 
a) 构 建 各 对 象 可 能 值 集 、 观 察 值 染色 体 、 属 性 染色 体 、 喜剧 ) 的 期 望 频率 为 
真 值 染 色 体 和 属性 类 型 向 量 。 count( 周 星 驰 )xcount( 喜 剧 ')) 197x300 591 
b) 根据 当前 各 对 象 真 值 染色 体 和 观察 值 染 色 体 , 通过 权 n 1000 | 
值 计 算 公 式 得 到 各 数据 源 的 初始 权 值 。 同 理 
c) 根 据 步骤 b) 得 到 的 各 数据 源 权 值 ， 通 过 改进 后 的 遗传 0 -197x700 -1379 。 -803x300 -7409 。 -803x700 _5621 
优化 算法 求 得 目标 函数 全 局 最 优 解 。 此 解 即 为 当前 各 数据 源 ” 1000 ”1000 ”1000 
权 值 下 的 真 值 集 合 。 利用 式 (1) 可 得 
d) 迁 代 重 复 执 行 步骤 c)d)， 每 轮 结束 后 比较 前 后 两 次 得 ,_(165-59.1)’ , (32-1379) (135-2409) , (668-562.1): _ 337 so009 
到 的 数据 源 权 值 , 当 两 者 间 差 异 度 满 足 收敛 条 件 时 停止 算法 。 59.1 137.9 240.9 521 
e) 根 据 当 前 各 数据 源 的 权 值 ， 确 定 最 终 各 对 象 的 真 值 集 对 于 2*2 的 表 自 由 度 为 (2-D(2-D=1。 自 由 度 为 1， 在 
合 。 0.001 的 置信 水 平 下 ， 拒 绝 假设 的 值 为 10.828， 计 算得 到 的 
广 -一 值 远 大 于 此 值 ， 故 可 以 断定 这 两 个 属性 间 是 强 相 关 的 。 同 理 
| [富生 数值 类 型 属性 通过 式 (3) 也 可 证 明 出 存在 相关 性 ， 此 处 不 再 歼 
入 述 。 | 
Si 由 上 述 分 析 可 得 ， 在 多 属性 数据 问题 的 处 理 上 ， 各 属性 


间 的 相关 性 不 容 忽视 。 为 得 到 更 加 精确 的 结果 ， 在 数据 源 权 
值 计算 模型 与 对 象 真 值 求解 模型 的 建立 上 需要 考虑 到 其 相关 
性 并 将 处 理 方法 加 入 模型 中 。 而 面 对 与 庞大 的 数据 集 对 各 属 
性 两 两 进行 相关 性 分 析 会 使 算法 效率 大 大 降低 。 不 同 于 已 提 
出 方法 ， 本 文 将 对 象 的 各 个 属性 视 作 整体 进行 建 模 ， 确 保 在 
计算 过 程 中 不 破坏 对 象 属性 间 整 体 性 ， 从 而 在 避免 其 相关 性 
影响 的 前 提 下 大 幅度 提升 了 算法 的 执行 效率 。 
2.2 数据 源 权 值 计 算 
每 个 数据 源 为 每 个 对 象 提供 了 不 同类 型 的 多 个 属性 值 ， 


借助 遗传 算法 中 染色 体 的 定义 ， 令 Bw 表示 数据 源 % 为 对 


象 0; 中 第 mm 个 属性 提供 的 观察 值 染 色 体 ， 长 度 为 5。 令 8 
表示 数据 源 &% 为 对 象 0; 提供 的 所 有 观察 值 染色 体 ， 其 长 度 


为 各 属性 观察 值 的 长 度 之 和 > 。 则 89 中 第 /个 元 素 的 取 
值 可 表示 为 


1 [eg® 


Bi 四 = 
四 0, GU]¢ 9" 


(4) 


有 值 的 元 组 个 数 ，count(8=b;) 为 属性 8 上 具有 值 5 的 元 组 


个 数 。 
对 于 数值 数据 ， 通 过 计算 两 属性 的 相关 系数 Person 积 
和 矩 系 数 ) 估计 其 相关 度 。 可 用 下 式 计算 : 


>(e -al - 司 Pab)-naB 
其 中 : 7 为 对 象 的 元 组 个 数 ，a; 和 4; 分别 是 元 组 i 在 4 和 B 上 
的 值 ，A 和 8 分 别 是 4 和 8 的 均值 ，o4 和 o; 分 别 是 4 和 8 的 


14,B 


其 中 :3 D] 表示 数据 源 上 提供 关于 对 象 : 的 对 象 观察 值 染 色 


体 中 第 ! 位 基因 ， 多 四 表示 对 象 ; 的 可 能 值 集中 的 第 ! 个 值 ， 


9 表示 数据 源 k 提供 的 关于 对 象 i 的 观察 值 集 。 
本 文通 过 数据 差异 度 来 衡量 两 数据 间 不 同 部 分 的 大 小 ， 
即 表 示 两 数据 间 的 冲突 程度 ， 冲 突 程度 越 大 ， 它 们 之 间 的 差 
异 度 越 大 。 染 色 体 中 包含 多 个 基因 即 多 个 值 ， 在 考虑 两 条 染 
色 体 间 的 差异 度 时 不 仅 要 考虑 基因 取 值 同 为 1 的 情况 ， 还 
考虑 到 同 为 0 的 情况 ， 构 造 损 失 函 数 以 表示 对 象 观察 值 染 
体 与 其 真 值 染色 体 间 差异 度 。 如 式 (5) 所 示 。 


[BR 发 
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(5) 


其 中 :Ti 四 表示 对 象 i 中 第 m 个 属性 的 真 值 染色 体 中 第 1 个 
基因 的 值 ， 用 于 消除 属性 值 数量 上 的 不 同 对 结果 的 影响 。 


| 
4 L 


ChinaXiv 合 作 期 刊 


了 一 条 记录 中 各 属性 间 的 完整 性 ， 避 免 破 坏 属性 间 相关 性 而 
带 来 影响 。 对 染色 体 动作 交叉 变异 进行 针对 问题 的 特点 进行 
修改 ,可 保证 单 值 属性 和 多 值 属性 中 值 的 跳动 在 一 定 范围 
之 后 构造 属性 类 型 向 量 保证 结果 中 属性 值 数量 的 正确 性 ， 


Im 


逐 对 


于 更 高 质量 的 数据 源 通 常会 提供 更 可 信 的 数据 ， 可 通过 差 
异 度 来 计算 各 数据 源 的 权 值 ， 此 权 值 的 大 小 描述 了 该 数据 源 
质量 的 好 坏 程度 。 数 据 源 上 的 权 值 计算 公式 定义 为 


| 
0 (0) 
注意 到 在 权 值 的 计算 公式 中 ，@. 的 计算 结果 与 数据 源 提 


止 单 值 属 性 出 现 多 值 的 错误 情况 。 最 后 通过 遗传 算法 解决 
标 函 数 存 在 多 个 局 部 最 优 解 的 问题 ， 按 照 优 胜 劣 汰 的 原则 对 
染色 体 种 群 进行 逐 代 演 化 从 而 逐步 逼近 全 局 最 优 解 。 详 细 如 
下 


a) 群 体 初始 化 算法 的 改进 。 将 每 条 数据 记录 以 染色 体 的 
形式 表示 。 随机 生成 G 条 染色 体 , 其 中 每 条 染色 体 为 一 个 解 ， 


供 的 声明 数量 |ol 有 关 。 长 尾数 据 的 大 量 存 在 对 数据 源 质量 
的 评估 产生 了 很 大 的 障碍 ， 导 致 个 别 数据 源 得 到 非常 极端 的 
权 值 分 配 ， 从 而 影响 最 后 真 值 计 算 的 准确 率 。 为 得 到 更 精确 
的 数据 源 权 值 ， 需 将 长 尾 现象 加 入 考虑 并 消除 长 尾数 据 对 数 
据 源 权 值 计 算 产 生 的 影响 。 
2.3 ”消除 长 尾数 据 对 数据 源 权 值 计算 的 影响 

在 Web 中 并 不 能 保证 每 个 数据 源 都 提供 了 相同 的 声明 
数量 ， 很 明显 这 将 导致 求 和 后 各 数据 源 被 赋予 了 不 公平 的 权 
值 。 本 文 利用 平均 数 对 声明 数量 的 差异 进行 平滑 ， 即 在 当前 
权 值 计算 结果 基础 上 除 以 该 数据 源 提供 声明 的 数量 ， 从 而 消 
除 长 尾数 据 源 对 权 值 计算 带 来 的 不 公平 性 。 综 上 所 述 ， 将 数 
据 源 权 值 的 计算 公式 改进 为 


Se 1 
pe, 0 

对 Qi 进行 标准 归 一 化 处 理 ， 同 时 考虑 到 方便 计算 ,对 原 
公式 取 对 数 ， 数 据 源 权 值 的 计算 公式 最 终 形式 为 


@ =—In 他 8 
bm s ， 


每 次 迭代 后 为 评价 数据 源 权 值 的 变化 ， 同 样 可 由 差异 度 
来 衡量 前 后 变化 大 小 。 两 数据 源 权 值 间 的 差异 度 计算 公式 如 
式 (9) 所 示 ， 其 中 性 表示 本 次 迭代 后 数据 源 i 的 权 值 ， 尺 表示 
上 次 迭代 后 数据 源 让 的 权 值 。 


4 -wm) (9) 


2.4 对 传统 遗传 优化 算法 的 改进 

在 2.1 节 已 经 证 明了 对 象 各 属性 间 可 能 存在 相关 性 ， 本 
文 将 一 条 包含 多 个 属性 的 记录 视 为 一 个 整体 进行 处 理 ， 如 此 
一 来 在 真 值 计算 的 迭代 过 程 中 可 以 确保 该 记录 的 完整 性 ， 避 
免 再 加 入 属性 间 相 关 性 的 修正 因子 。 同 时 本 文 方法 力求 实现 
单 真 值 发 现 问题 与 多 真 值 发 现 问题 的 联合 求解 ， 即 一 条 记录 
中 又 可 能 同时 包含 单 值 属 性 与 多 值 属 性 。 需 要 一 种 可 变 策略 ， 
分 别 适 用 于 单 值 属 性 和 多 值 属性 的 操作 ， 即 一 种 即 能 满足 各 
属性 值 随意 变动 但 此 变动 必须 处 于 一 定 范 围 内 的 数据 载体 。 
对 象 真 值 计算 的 目标 为 各 对 象 真 值 结果 集 与 各 数据 源 提 


I 


其 长 度 5 为 该 对 象 可 能 值 集 的 长 度 。 在 构造 群体 中 染色 体 时 ， 
为 保证 解 的 正确 性 规定 单 值 类 型 的 属性 观察 值 染色 体 中 只 人 允 
许 出 现 某 个 基因 为 1， 而 不 能 是 多 个 ， 故 定义 属性 类 型 向 量 
Flag 用 来 表示 各 属性 的 类 型 ， 其 长 度 为 对 象 中 属性 的 个 数 。 
其 中 单 值 类 型 属性 在 对 应 的 位 置 标记 为 0, 多 值 类 型 标记 为 1 。 
同时 定义 长 度 向 量 Len 用 来 存放 对 象 可 能 值 集 染 色 体 中 各 属 
性 对 应 子 染 色 体 的 长 度 ， 以 保证 之 后 赋予 各 属性 正确 的 值 数 
量 。 具 体 流程 如 算法 1 所 示 。 
算法 1 改进 后 的 群体 初始 化 算法 InitP(Flag,M,L,,Len) 

入 : 类 型 标记 向 量 Flag 、 群 体 大 小 M 、 染 色 体 长 度 五 、 各 属性 子 


下 


染色 体 长 度 向 量 Zen 。 

输出 : 真 值 向 量 群体 P 。 

1. form=0to M 

2. 定义 长 度 为 ,的 向 量 TT ; 

3, for n= 8 to Flag.count 

4. 定义 长 度 为 Len[n] 的 全 8 向 量 t， ; 

55 if Flas[i] == @ then 

6. 随机 生成 8 到 Len[n] 内 的 一 个 整数 7 ; 
7 标记 去 中 第 7 位 为 1; 

8. else bu 中 的 每 一 位 分 别 随机 标记 为 6 或 1; 
9 end if 

16 . end for 


11 . 将 生成 的 … 把 合并 赋予 元 ; 
12. 将 元 插入 群体 P ; 

13. end for 

14. return 群体 P{T,7,2.7y }; 

b) 染 色 体 评价 。 遍 历 当前 群体 中 的 各 染色 体 ， 分 别 代 入 
目标 函数 计算 适应 度 ， 即 计算 结果 的 好 坏 程度 。 

c) 选 择 运算 的 改进 Seleci(0) 。 将 适应 度 最 好 的 前 n110 条 
染色 体 选 择 出 来 ， 其 中 为 对 象 的 记录 总 个 数 ， 直 接 作为 下 
一 代 群 体 中 的 染色 体 。 为 防止 算法 出 现 早 熟 现象 ， 在 
ln-n/10,n] 范围 内 随机 挑选 3 条 记录 直接 进入 下 一 代 群 体 中 。 

qd) 交叉 运算 的 改进 Swap(0) 。 交 叉 运 算 使 得 算法 搜索 全 局 
最 优 解 能 力 得 以 飞跃 性 的 提高 ， 传 统 的 交叉 算法 将 两 个 染色 
体 的 部 分 结构 加 以 替换 重组 而 生成 新 的 染色 体 ， 期 望 将 有 益 
基 


供 该 对 象 观察 值 之 间 差 异 度 加 权 和 达到 最 小 ， 故 目标 函数 可 
设 定 为 


下 N M 
nmin SaS Se, ) (10) 
k=] ENEE 


于 在 2.3 节 中 加 入 了 loi| 平 滑 对 象 声 明 数量 的 差异 , 此 
刀子 必定 导致 该 目标 函数 为 一 个 非 凸 非 止 函数 ， 图 像 会 中 出 
岗 多 拐点 的 现象 ， 即 存在 多 个 局 部 最 优 解 ， 不 能 使 用 传统 对 
于 凸 或 四 的 目标 函数 的 求解 方法 。 


寻 组 合 在 一 起 。 

染色 体 中 属性 子 染 色 体 达到 问题 定义 的 最 小 粒度 级 ， 针 
对 本 问题 的 特殊 性 本 文 在 传统 交叉 操作 上 做 了 改进 : 在 染色 
体 交 叉 时 ， 将 单 值 属性 对 应 的 部 分 按 该 属性 对 应 的 块 进 行 整 
体 互 换 后 形成 新 的 染色 体 。 假 设 某 单 值 属性 可 能 值 集 长 度 为 
4, 交叉 过 程 如 图 2 所 示 , 其 中 虚线 框 部 分 为 某 属性 的 观察 值 
染色 体 。 
多 值 属性 在 交叉 操作 时 ， 采 用 多 点 交叉 ， 交 叉 位 数 定 为 


根据 上 述 两 点 分 析 ， 首 先 借助 遗传 算法 对 群体 初始 化 算 
法 和 染色 体 的 基本 动作 分 别 进行 改进 ， 即 可 满足 上 述 分 析 中 
的 要 求 。 每 次 迭代 染色 体 作为 一 个 整体 带 入 进行 计算 ， 保 证 


此 属性 对 应 的 长 度 心 除 以 2 后 向 下 取 整 ， 即 随机 选取 7 位 进 


行 多 点 交叉 ， 其 中 w=- 铝 。 如 图 3 所 示 。 
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图 2 单 值 属性 交叉 操作 


Fig. 2 Cross operation of single-valued attribute 


1,0,0,0,0,1,1,0,1,1 1 1,0,0,0,1,0,1,0,1,0 


[| ss] C) 


0,0,1,0,1,0,0,0,1,0 | 0,0,1,0,0,1,0,0,1,1 


变异 运算 使 得 算法 具有 局 部 的 随机 搜索 能 力 ， 当 遗传 算法 通 
过 交叉 运算 后 已 接近 最 优 解 邻 域 时 ， 利 用 变异 运算 的 这 种 局 


a 


图 3 多 值 属性 交叉 操作 


Fig. 3 Cross operation of multi-valued attribute 
6) 变异 运算 的 改进 Muare(O) 。 


对 群体 中 各 染色 体内 某 些 基因 座 上 的 基因 值 进行 变动 。 


部 随机 搜索 能 力 可 以 加 速 向 最 优 解 收敛 。 

针对 本 问题 本 文 将 单 值 属性 的 变异 操作 改 为 跳 位 操作 ， 
色 体 中 单 值 属 性 对 应 部 分 中 的 “1” 随机 跳 至 该 部 分 中 的 
位 置 。 假 设 某 单 属 性 可 能 值 集 长 度 为 4, 变异 过 程 如 


图 4 


其 中 虚线 框 部 分 为 某 属 性 观察 值 染色 体 。 


进行 


图 4 单 值 属性 变异 操作 


Fig.4 Mutate operation of single-valued attribute 


多 值 属性 在 变异 操作 时 随机 选取 该 属性 对 应 范围 内 7 位 


突变 , 即 关 0 变 1, 着 1 变 0, 其 中 n= 名。 如 图 


2 


5 所 示 。 


0,0,1,0,0,1,1,0,1,1 |C) | 0,0,1,0,0,0,0,0,0,1 


Ed 


图 5 多 值 属性 变异 操作 


Fig.5 Mutate operation of multi-valued attribute 


反复 执 步 骤 b) ~e)， 直 到 某 一 代 群 体 中 的 目标 函数 最 优 
值 与 上 一 群体 中 的 目标 函数 最 优 值 连续 出 现 三 次 相等 情况 时 
人 i 


停止 算法 ， 此 时 导致 最 优 目 标 函 数值 的 染色 体 ， 即 为 当前 权 


值 下 该 对 象 的 最 优 真 值 染色 体 ， 实 现 了 单 真 值 与 多 真 值 的 联 


口 计 


| 算 。 改 进 后 群体 初始 化 算法 省 去 了 遗传 算法 中 


氏 效 的 编 


码 与 解码 操作 ， 选 择 操作 避免 了 算法 容易 早熟 的 缺陷 ， 交 又 


与 变异 操作 省 去 了 交叉 率 与 变异 率 的 设 定 ， 以 属性 为 最 小 粒 


度 使 算法 更 快 至 收敛 状态 ， 回 避 传 统 遗传 算法 缺陷 


升 了 计算 效率 。 


2.5 


多 属性 数据 的 联合 真 值 发 现 方法 “ATD4MA) 


文献 [13] 已 经 给 出 了 联合 迭代 机 制 推导 数据 源 
值 集合 方法 有 效 性 的 严格 证 明 


的 同时 提 


已- 专 


县 -可 县 


本 文 在 真 值 计算 上 也 采取 这 


种 机 制 。 首 先 初始 化 一 个 真 值 向 量 进行 各 数据 源 的 可 信和 度 权 


值 计算 ， 之 后 利用 计算 得 到 的 数据 源 权 值 进行 各 对 象 真 值 集 
合 的 计算 。 每 次 迭代 都 会 更 新 各 数据 源 的 权重 与 各 对 象 的 真 


1. 初始 化 各 对 象 的 真 值 染 色 体 集 V ={n,2,2..Ty}; 

2. 计算 各 数据 源 权 值 ， 更 新 W ={Wwi,%,2..wxr}》; 

3. do 

4. W’=W; 

5 for i=1 to N 

6. 根据 对 象 中 属性 类 型 更 新 类 型 向 量 Flag ; 
7. 更 新 子 染 色 体 长 度 向量 Len ; 

8. 定义 群体 大 小 M 与 染色 体 长 度 头 ; 

9. P=InitP(Flag,M,L,,Len) ; 

16 . do 

11. P= Mutate( Swap(Select(P))); 

12. 将 导致 最 优 适应 度 的 染色 体 赋予 femp ; 
了 本 if 六 =te1PD then break; 

14. else v=temp; 

15. end if ; 

16. while(1) 

7 Ti=V;; 

18. end for 

19. 将 V 代入 式 (8) 计 算 各 数据 源 的 权重 ， 更 新 W ; 
26. ”if W 与 W' 间 差异 度 满足 收敛 条 件 then break; 


21. end if ; 
22. while(1) 
23. 根据 V 与 @* 得 出 最 终 的 真 值 结果 集 
24. return T,W ; 
假设 算法 运行 至 收敛 时 迭代 的 次 数 为 Kk ， 则 算法 的 时 间 
复杂 度 为 O(NMK)。 


3 ”实验 与 分 析 


3.1 数据 集 与 实验 环境 
在 两 个 真实 的 数据 集 上 进行 实验 。 
a) 电 影 数据 集 。 从 Web 中 疏 取 近 10 年 豆 办 评分 高 于 6.0 
的 电影 数据 。 经 过 预 处 理 后 的 数据 集 包 含 405 部 电影 ， 来 自 
于 92 个 网 站 ， 共 3 719 条 记录 。 选 取 其 中 50 部 电影 ， 对 海 
报 上 信息 进行 人 工 确认 后 作为 基准 数据 集 。 
b) 书 籍 数据 集 。 从 Web 中 疏 取 书籍 数据 集 ， 包 含 了 来 自 
450 个 数据 源 的 2 245 本 图 书 ，22 972 条 冲突 数据 记录 。 在 
其 中 随机 选择 50 本 图 书 ,通过 其 封面 信息 对 其 作者 信息 进行 
人 工 确认 后 作为 基准 数据 集 。 
实验 运行 环境 为 :Intel®) CoreTM i5-7300HQ CPU@ 2.50 
GHz (4 CPUs) 处 理 器 、16 GB 内 存 、Windows 10 操作 系统 ， 
数据 库 为 SQL Server 2012， 所 有 算法 均 使 用 MATLAB 语言 
实现 。 
3.2 评价 指标 
真 值 发 现 的 目标 即 在 冲突 数据 集中 找到 最 准确 、 最 完整 
的 真 值 集合 。 为 评价 结果 的 准确 性 和 完整 性 ， 本 文通 过 三 
指标 来 评价 本 文 所 提 方 法 。 
a) 查 准 率 (precision)。 衡量 计 算得 到 的 对 象 真 值 相 比 于 该 


A 
器 
- 


值 集合 ， 直 到 本 次 计算 与 上 次 计算 得 到 的 各 数据 源 权 值 间 的 


差异 度 在 一 定 范围 内 ， 则 认为 算法 达到 收敛 状态 ， 可 1 
E 价 此 差异 度 。 此 时 根据 当前 各 数据 源 权 重 ， 计 算得 到 各 


来 


对 象 的 真 值 集合 。 具 体 流程 如 算法 2 所 示 。 

算法 2 基于 多 属性 数据 的 联合 真 值 发 现 方法 
(ATD4MA) 

输入 : 所 有 数据 源 提供 

8: 各 数据 源 质量 本 与 各 对 象 的 真 值 集合 7 。 


输 


式 (9) 


对 象 实际 真 值 的 准确 率 。 假 设 某 对 象 的 真实 数据 集中 包含 
个 值 ， 计 算得 到 的 真 值 结果 中 包含 w 个 值 ， 其 中 有 ?个 值 属 


于 真实 数据 集 ， 表 示 为 pe= 人 mj 。 
b) 查 全 率 (reca1)。 衡 量 计算 得 到 的 对 象 真 值 在 该 对 象 的 


6 冲突 数据 集 。 


= 


Ei 


实际 真 值 集中 所 占 比 率 大 小 。 假 设 某 对 象 的 真实 数据 集中 包 


含 个 值 ， 计 算 结 果 中 包含 m 个 真实 的 值 。 表 示 为 rec= 工 。 


n 


c) 调 和 平均 数 F-Score (harmonic mean)。 衡量 结 果 整 体 水 
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站 votng Voting 
有 TuthFinder TruthFinder 
本 本 ATD4VA 国 国 ATD4MA 


os 
0.7] 孵 

J | 
2 I 


2x prexrec 


平 , 即 查 准 率 和 查 全 率 的 调和 平均 值 。 表示 为 到 


o 
pret+rec 09 


3.3 ”算法 收敛 的 判定 | 
对 ATD4MA 算法 收敛 的 条 件 进行 讨论 。 当 本 次 计算 与 a | 


上 次 计算 得 到 的 各 数据 源 权 值 间 差异 度 在 一 定 范围 内 时 ， 认 os] 站 
为 算法 达到 收敛 状态 ， 停 止 和 闪 代 。 分 别 对 电影 和 书籍 两 数据 。 
集 进 行 10 次 迭代 , 计算 每 次 迭代 后 的 差异 度 。 实 验 结果 如 图 We ee 0 人 
6 所 示 ， 其 中 横 坐 标 表示 和 迭代 次 数 ， 纵 坐标 表示 差异 度 。 "| We pr 
"] 一 一 电影 数据 集 kK 
, - 。- 书 稍 数 据 集 oa oa 
10 1 \ i 本 
104] 0.6 0.6 
106] 0 Recal Ee rodlon Recal F-Score 
， i 加 7 单 属性 下 各 算法 对 比 
0 2 4 6 8 10 Fig.7 Comparison of each algorithms under single attribute 
图 6 差异 度 值 随 迭 代 次 数 的 变化 由 于 ATD4MA 考虑 到 了 长 尾数 据 对 计算 结果 的 影响 ， 
Fig.6 The dis-value of each iteration 相 比 于 单 真 值 发 现 方 法 Voting 和 TruthFinder 表现 出 较 差 的 效 
从 图 中 可 看 出 ， 电 影 数据 集 在 经 过 7 次 迭代 后 ， 可 达到 ”” 果 ,并 在 多 值 属性 数据 集 的 表现 高 于 MTruth。 由 此 说 明 本 文 


收敛 状态 ， 此 时 差异 度 约 为 104 。 书 籍 数据 集 在 经 过 5 次 迭 ” 方法 分 别 适用 于 单 真 值 与 多 真 值 数 据 集 的 真 值 计算 ， 相 比 于 

代 后 , 可 达到 收敛 状态 , 差异 度 约 为 107 。 故 在 两 数据 集 上 ， 传统 算法 表现 出 更 佳 的 效果 。 

当 算 法 执行 至 差异 度 分 别 小 于 10* 与 107 时 ,可 判定 算法 满足 ” 3.4.2 数据 包含 多 个 属性 时 各 算法 的 比较 

收敛 条 件 并 停止 迭代 。 同 时 ， 本 实验 结果 也 证 明了 本 文 提出 当 对 象 同 时 包含 单 值 属性 与 多 值 属性 时 ， 传 统 方法 采取 

算法 可 达到 快速 收敛 的 效果 。 届 性 拆 分 后 分 别处 理 的 方式 。 分 别 与 传统 单 真 值 方法 与 多 真 

3.4 ATD4MA 与 传统 算法 的 对 比 值 方法 进行 比较 。 相 比 于 单 真 值 发 现 方法 Voting 和 
实验 中 选取 了 如 下 三 种 方法 与 本 文 算法 进行 比较 : TruthFinder， 实 验 选 取 电 影 数 据 中 导演 与 时 长 两 个 单 值 属性 ， 
a)Voting。 采 取 投 票 机 制 ， 以 各 对 象 为 单位 ， 各 对 象 选择 ”表现 如 图 8(a) 所 示 。 相 比 于 多 真 值 发 现 方 法 MTruth， 实 验 选 

各 数据 源 中 出 现 最 多 次 数 的 描述 值 为 该 对 象 的 真 值 。 取 书 籍 数据 中 类 别 和 作者 两 个 多 值 属性 , 表现 如 图 8(b) 所 示 。 
b)TruthFinder。 文 献 [1] 中 提出 的 单 真 值 发 现 方法 ， 考 虑 。 之 后 选取 电影 数据 中 时 长 和 演员 两 属性 ， 书 籍 数 据 中 售 价 和 

到 了 数据 源 可 信 性 的 分 配 问题 。 芷 者 两 属性 ， 即 一 个 单 值 属 性 和 一 个 多 值 属 性 ， 用 单 值 发 现 
c)Mtruth。 文献 [12] 中 提出 的 多 真 值 发 现 方 法 ， 又 可 分 为 。 方法 TruthFinder 与 多 值 发 现 方法 MTruth 分 别处 理 ， 电 影 数 


枚 举 和 贪心 两 种 策略 进行 。 枚 举 策 略 较 贪 心 策略 会 耗费 更 多 据 集 和 书籍 数据 集中 各 方法 表现 分 别 如 图 8(c)(d) 所 示 。 
的 时 间 ， 但 枚 举 策略 的 准确 性 高 于 贪心 策略 。 本 次 实验 中 选 i 2 "| 六 
择 与 其 中 的 枚 举 策略 进行 比较 。 091 A 091 
为 使 各 方法 之 间 具 有 可 比 性 ， 实 验 首先 在 对 象 只 包含 一 08 08] 
个 属性 的 情况 下 分 别 与 单 真 值 发 现 方 法 和 多 真 值 发 现 方法 进 071 2 o7] 
行 比较 ， 以 证 明 AID4MA 同样 可 胜任 之 前 提出 方法 所 解决 ji ol 
的 问题 。 之 后 在 对 象 包含 多 个 属性 的 情况 下 与 个 算法 进行 比 "| 加 | 
较 当 而 对 多 个 单 值 属 性 与 多 个 多 值 属 性 时 . Voting Precision Bo F-Score Precision Bocal F-Score 
TruthFinder 和 MTruth 采取 属性 拆 分 后 分 别 进行 计算 。 当 面 一] 国生 rw 人 
对 单 值 属 性 与 多 值 属 性 同时 存在 情况 时 ， 将 单 真 值 发 现 方法 | 09] 
TruthFinder 与 MTruth 结合 ， 将 多 个 属性 拆 分 后 分 别 进行 计 08 08 
算 。 而 ATD4MA 面 对 上 述 情况 可 直接 进行 整体 计算 ， 如 此 07 07 
进行 比较 以 突出 本 文 论点 。 06 06 
3.4.1 数据 包含 单个 属性 时 各 算法 的 比较 05 05 
当 对 象 只 包含 单个 属性 时 ATD4MA 相 比 于 背 真 值 HJ. 囊 Precision Bn F-Score Precision Bl F-Score 
方法 Voting 和 TruthFinder, 实验 中 选取 电影 数据 中 电影 时 长 四 8 多 属性 下 各 算法 对 比 
和 书籍 数据 中 售 价 两 个 单 真 值 属性 ， 表 现 分 别 如 图 7(a)(b) 所 Fig.8 Comparison of algorithms under multiple attribute 
示 。 相 比 于 多 真 值 发 现 方 法 MTruth,， 实验 中 选取 电影 演员 和 由 图 可 得 ， 在 对 象 包含 多 个 单 值 于 多 值 属 性 的 情况 下 ， 
书籍 作者 两 个 多 真 值 属性 。 其 中 Voting 和 TruthFinder 需 设 定 传统 方法 只 能 处 理 单个 属性 ， 因 只 能 采取 拆 分 处 理 ， 破 坏 了 


一 个 靖 值 ， 即 属性 值 为 真 的 概率 大 于 该 闪 值 时 判定 该 属性 值 各 属性 间 相 关 性 从 而 导致 不 精确 的 数据 源 权 值 和 真 值 集 ， 故 
为 真 ， 实 验 中 将 该 阔 值 设 定 为 0.75。 两 数据 集 下 各 算法 的 表 ”传统 方法 表现 出 较 差 效果 。 当 对 象 同时 包含 单 值 与 多 值 属 性 
现 分 别 如 图 7(c)(d) 所 示 。 时 ， 将 属性 进行 拆 分 后 分 别 通过 单 真 值 发 现 与 多 真 值 发 现 方 
法 计算 也 因 破 坏 了 属性 相关 性 同样 表现 出 较 差 的 效果 。 而 
AID4MA 对 属性 进行 整体 联合 处 理 , 没有 破坏 对 象 各 属性 间 
的 相关 性 ， 表 现 出 了 较 好 的 效果 。 


象 


何 杰 等: 


综 上 ， 两 个 数据 集 上 的 实验 证 明了 本 文 提 出 的 方法 在 对 
同时 包含 多 个 单 值 或 多 值 属性 的 情况 下 ， 可 有 效 地 计算 出 


精确 的 真 值 集合 ， 而 以 往 提 出 的 方法 均 无 法 应 对 此 种 情况 下 
的 真 值 发 现 问题 。 本 文 方法 在 之 前 方法 基础 上 考虑 到 数据 中 
普遍 存在 的 严重 影响 数据 源 权 值 精确 度 的 长 尾 现象 ， 借 助 遗 


传 算法 优点 的 同时 避 开 其 缺点 对 问题 进行 建 模 ， 相 比 于 之 前 
方法 得 到 更 为 精确 的 计算 结果 。 因 遗传 算法 的 
方法 在 算法 执行 时 间 上 相 比 于 之 前 方法 会 有 所 增加 。 考 虑 到 
真 值 发 现 是 一 个 一 次 性 的 过 程 ,牺牲 一 定 的 时 间 换 取 准 确 性 、 


查 全 性 方 


身 特点 ， 该 


押 的 大 幅度 提升 是 值得 的 。 


4 


时 的 


结束 语 


之 前 提出 的 真 值 发 现 方法 ， 只 能 处 理 对 象 包含 一 个 属性 
值 发 现 ， 例 如 书籍 的 作者 ， 电 影 的 导演 。 在 当今 大 数 


[nn 
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据 时 代 下 完全 不 能 满足 数据 的 处 理 要 求 。 当 需要 处 理 对 象 的 
多 个 属性 时 ， 之 前 方法 显得 力不从心 。 本 文 提 出 可 用 于 多 个 


属 


弥 
入 


性 同时 进行 真 值 发 现 的 方法 ATD4MA，, 借助 染色 体 作 为 数 
据 载 体 ， 对 遗传 优化 算法 的 群体 初始 化 算法 和 染色 体 的 基本 


作 分 别 进行 改进 改进 ， 取 其 优 避 其 劣 ， 克 服 了 模型 求解 陷 
局 部 最 优 解 的 问题 ， 在 不 破坏 属性 间 相 关 性 的 情况 下 实现 


di 


了 单 值 与 多 值 属 性 的 联合 真 值 发 现 计算 ， 为 真 值 发 现 研究 领 


域 
所 
ie 
作 


的 一 大 突破 . ATD4MA 同 适 用 于 之 前 提出 的 真 值 发 现 方法 
解决 的 问题 并 表现 出 更 佳 的 效果 。 最 后 在 两 组 真实 数据 集 


的 实验 证 明了 本 文 提 出 算法 的 有 效 性 。 接 下 来 的 进一步 工 
， 将 致力 于 研究 可 适用 于 动态 数据 流 的 高 效 真 值 发 现 方法 


与 算法 执行 效率 方面 的 改进 与 提升 。 
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